目標很豐滿,實踐很骨感。
這一次鐵人賽希望自己能琢磨出一個 best practice。在實踐RL上面能夠找出一條基本路線然後提供給各方大佬批判指教。
目標是能給人抄作業,給未來的自己抄作業。所以面向的自己比較像是已經有了 machine learning 基礎,至少已跑過 coursera DL 課程的朋友。
這一個系列文會聚焦在幾個實踐上我自己卡到過的問題。
Reinforcement learning 基本算法 和 遭遇到的問題。
李宏毅老師
王樹森老師
版主您好,
拜讀您的文章摘要,內容非常吸引人!您提到「目標很豐滿,實踐很骨感」這點,相信是許多實踐者都曾面臨的挑戰,很期待您能琢磨出RL的best practice。能為有ML基礎的朋友整理出實用的基本路線,這個出發點非常棒,對學習者而言是莫大的福音。
特別是Environment的建構和Reward的設計,這兩者往往是影響RL模型成效的關鍵,也是實踐中容易卡關的地方。還有超參數的rule of thumb,這對初學者甚至有經驗的實踐者都非常有價值,能有效縮短摸索時間。非常期待您能深入分享這些實踐上的心得。
感謝您的無私分享,期待您系列文章的推出!
也歡迎版主有空參考我的系列文「南桃AI重生記」:
https://ithelp.ithome.com.tw/users/20046160/ironman/8311